Para el ICFES es muy importante conocer cuáles son los factores de éxito en el desempeño en un curso de matemáticas de estudiantes de grado 10mo.
El presente informe, tiene como objetivo presentar las características de los datos de estudiantes de grado 10mo que incluye su desempeño el curso de matemáticas.
Los datos fueron recolectados en un colegio a través del seguimiento del rendimiento académico en el curso de matemáticas.
Inicialmente se presentarán los detalles de la estructura de la base de datos, donde se detallará aspectos como el significado de cada fila y columna, los tipos de variable. Seguido de los detalles de la base de datos, expondremos los hallazgos más importantes en el análisis descriptivo univariado y bivariado y el tratamiento que les dimos. Por último, se listarán una serie de conclusiones y recomendaciones teniendo en cuenta los hallazgos encontrados en los datos.
Antes de empezar se cambia el formato de los datos:
| sex | age | address | Pstatus | Medu | Fedu | reason | traveltime | paid | internet | absences | G3 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Femenino | 18 | Urbano | Separados | higher education | higher education | course | 15 to 30 min. | no | no | 6 to 10 absences | 6 |
| Femenino | 17 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | course | <15 min. | no | yes | 0 to 5 absences | 6 |
| Femenino | 15 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | other | <15 min. | yes | yes | 6 to 10 absences | 10 |
| Femenino | 15 | Urbano | Viviendo juntos | higher education | 5th to 9th grade | home | <15 min. | yes | yes | 0 to 5 absences | 15 |
| Femenino | 16 | Urbano | Viviendo juntos | secondary education | secondary education | home | <15 min. | yes | no | 0 to 5 absences | 10 |
| Masculino | 16 | Urbano | Viviendo juntos | higher education | secondary education | reputation | <15 min. | yes | yes | 6 to 10 absences | 15 |
El objetivo de esta sección es mostrar los hallazgos más relevantes del análisis univariado y su relación con la variable dependiente. Esto con el objetivo de dar un vistaso de las variables, mirar su distribución y encontrar si realmente tienen relación:
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 11.52381 | 3.227797 | 11 | 11.45993 | 2.9652 | 4 | 20 | 16 | 0.2075008 | -0.4275731 | 0.1708331 | 5 | 9 | 14 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 48 199
##
## Shapiro-Wilk normality test
##
## data: data$G3
## W = 0.98082, p-value = 0.000109
##
## Anderson-Darling normality test
##
## data: data$G3
## A = 2.5143, p-value = 2.323e-06
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$G3
## D = 0.11068, p-value = 2.376e-11
Tal como se muestra en la gráfica y en las pruebas shapito, Anderson-Darling y Lilliefors (Kolmogorov-Smirnov) las notas de matemáticas NO siguen una distribución normal.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 16.65546 | 1.268262 | 17 | 16.58188 | 1.4826 | 15 | 22 | 7 | 0.5402778 | 0.1834692 | 0.0671235 | 2 | 16 | 18 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 226 355
##
## Shapiro-Wilk normality test
##
## data: data$age
## W = 0.90743, p-value = 5.702e-14
##
## Anderson-Darling normality test
##
## data: data$age
## A = 11.295, p-value < 2.2e-16
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$age
## D = 0.18195, p-value < 2.2e-16
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| higher education | 125 | 35.01 | 35.01 |
| secondary education | 90 | 25.21 | 60.22 |
| 5th to 9th grade | 89 | 24.93 | 85.15 |
| none or primary education (4th grade) | 53 | 14.85 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| <15 min. | 236 | 66.11 | 66.11 |
| 15 to 30 min. | 95 | 26.61 | 92.72 |
| >30 min. | 26 | 7.28 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| no | 184 | 51.54 | 51.54 |
| yes | 173 | 48.46 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| course | 126 | 35.29 | 35.29 |
| reputation | 99 | 27.73 | 63.02 |
| home | 97 | 27.17 | 90.19 |
| other | 35 | 9.80 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| yes | 299 | 83.75 | 83.75 |
| no | 58 | 16.25 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 0 to 5 absences | 211 | 59.10 | 59.10 |
| 6 to 10 absences | 80 | 22.41 | 81.51 |
| 11 to 20 absences | 51 | 14.29 | 95.80 |
| >20 absences | 15 | 4.20 | 100.00 |
Al momento de analizar las relaciones entre variables cuantitativas y cualitativas se debe verificar que los datos cumplan una distribucion normal, dependiendo de esto se pueden tomar diferentes caminos para probar igualdad de medias entre diferentes tratamientos. Como se pudo observar cuando se analizó la variable de las notas de matemàticas, no seguía una distribución normal. Por lo tanto, al hacer la comparación de variable cualitativa vs la variable dependiente, se compara usando Kruskal-Wallis para verificar si existe relación entre las variables (verificando si sus distribuciones son la misma). En caso de que no lo sea se pasa a verificar por cada pareja para ver aquellas que influyen en la nota final de matemáticas.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | none or primary education (4th grade) | 53 | 10.3962 | 2.5969 | 10 | 10.3488 | 2.9652 | 5 | 16 | 11 | 0.1388 | -0.2456 | 0.3567 | 3.00 | 9 | 12.00 |
| G32 | 5th to 9th grade | 89 | 11.2584 | 2.7367 | 11 | 11.1644 | 2.9652 | 6 | 19 | 13 | 0.3303 | -0.0589 | 0.2901 | 3.00 | 10 | 13.00 |
| G33 | secondary education | 90 | 11.3333 | 3.4250 | 11 | 11.2361 | 2.9652 | 5 | 19 | 14 | 0.2696 | -0.5994 | 0.3610 | 4.75 | 9 | 13.75 |
| G34 | higher education | 125 | 12.3280 | 3.4752 | 13 | 12.3465 | 4.4478 | 4 | 20 | 16 | -0.0966 | -0.6360 | 0.3108 | 5.00 | 10 | 15.00 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Medu
## Kruskal-Wallis chi-squared = 14.821, df = 3, p-value = 0.001976
Como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo de la madre (Medu) influye sobre las notas finales. Dado que se rechazo la hipotesis nula de la prueba se puede realizar la prueba de Wilcox para identificar cuales son las medias diferentes.
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Medu_G3$G3 and Medu_G3$Medu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.2288 -
## secondary education 0.2805 0.9491
## higher education 0.0024 0.0640
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.1309
##
## P value adjustment method: holm
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade FALSE NA
## secondary education FALSE FALSE
## higher education TRUE FALSE
## secondary education
## 5th to 9th grade NA
## secondary education NA
## higher education FALSE
Al utilizar la prueba wilcox para identificar las medias diferentes se puede decir con un nivel de confiabilidad de 95% que son estadisticamente diferentes las medias entre higher education y none or primary education (4th grade). Es decir la media de notas finales de los estudiantes con madres con educacion universitaria son diferentes a las notas de los estudiantes con madres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| item | category | vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | 1 | none or primary education (4th grade) | 1 | 73 | 10.6438 | 3.0063 | 10.0 | 10.5085 | 2.9652 | 5 | 18 | 13 | 0.4026 | -0.3891 | 0.3519 | 4 | 8 | 12 |
| G32 | 2 | 5th to 9th grade | 1 | 102 | 11.5686 | 3.1639 | 11.0 | 11.5366 | 2.9652 | 5 | 19 | 14 | 0.1636 | -0.2861 | 0.3133 | 4 | 10 | 14 |
| G33 | 3 | secondary education | 1 | 94 | 11.3404 | 3.2447 | 11.0 | 11.1842 | 2.9652 | 4 | 20 | 16 | 0.4075 | -0.2874 | 0.3347 | 4 | 9 | 13 |
| G34 | 4 | higher education | 1 | 88 | 12.3977 | 3.2889 | 12.5 | 12.4583 | 3.7065 | 5 | 19 | 14 | -0.1595 | -0.4848 | 0.3506 | 5 | 10 | 15 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Fedu
## Kruskal-Wallis chi-squared = 13.83, df = 3, p-value = 0.003146
De igual manera, para este analisis como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo del padre (Fedu) influye sobre las notas finales. Posteriormente se puede realizar una prueba de Wilcox para identificar las medias diferentes
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Fedu_G3$G3 and Fedu_G3$Fedu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.1737 -
## secondary education 0.3906 0.4431
## higher education 0.0023 0.1760
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.0688
##
## P value adjustment method: holm
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade FALSE NA
## secondary education FALSE FALSE
## higher education TRUE FALSE
## secondary education
## 5th to 9th grade NA
## secondary education NA
## higher education FALSE
En el resultado de la prueba wilcox se puede identificar las medias estadisticamente diferentes con un nivel de confiabilidad de 95%. Vemos que las medias entre higher education y none or primary education (4th grade) tiene valor menor a 0.05 por tanto son diferentes. Es decir la media de notas finales de los estudiantes con padres con educacion universitaria son diferentes a las notas de los estudiantes con padres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | <15 min. | 236 | 11.7415 | 3.3129 | 11 | 11.7053 | 2.9652 | 4 | 20 | 16 | 0.1132 | -0.4633 | 0.2157 | 4.25 | 9.75 | 14.00 |
| G32 | 15 to 30 min. | 95 | 11.1579 | 3.1227 | 11 | 11.0649 | 2.9652 | 5 | 19 | 14 | 0.3154 | -0.4958 | 0.3204 | 4.00 | 9.00 | 13.00 |
| G33 | >30 min. | 26 | 10.8846 | 2.6732 | 10 | 10.7727 | 2.9652 | 6 | 18 | 12 | 0.5655 | 0.1951 | 0.5243 | 2.75 | 10.00 | 12.75 |
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by traveltime
## Kruskal-Wallis chi-squared = 3.7159, df = 2, p-value = 0.156
Para el caso de tiempo de viaje se evidencia que el valor p es mayor a 0.05, lo cual quiere decir que no hay una relacion significativa entre las variables. Es decir, el tiempo de viaje del estudiante no afecta significativa el resultado de las notas finales.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | no | 184 | 11.6141 | 3.4017 | 11 | 11.5676 | 2.9652 | 5 | 20 | 15 | 0.1702 | -0.5850 | 0.2508 | 5 | 9 | 14 |
| G32 | yes | 173 | 11.4277 | 3.0388 | 11 | 11.3525 | 2.9652 | 4 | 19 | 15 | 0.2353 | -0.2895 | 0.2310 | 4 | 10 | 14 |
Vemos que visualmente no hay diferencias notables entre las medias de los tratamientos, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by paid
## Kruskal-Wallis chi-squared = 0.26329, df = 1, p-value = 0.6079
En este caso tambien vemos que el valor p no es menor a 0.05 por tanto, no hay una relacion significativa entre las variables. Es decir, las clases pagas extra no afectan significativamente las notas finales.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | no | 58 | 10.7069 | 2.9677 | 10 | 10.6042 | 2.9652 | 5 | 18 | 13 | 0.3126 | -0.1275 | 0.3897 | 3 | 9 | 12 |
| G32 | yes | 299 | 11.6823 | 3.2568 | 11 | 11.6224 | 2.9652 | 4 | 20 | 16 | 0.1719 | -0.4828 | 0.1883 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by internet
## Kruskal-Wallis chi-squared = 4.2654, df = 1, p-value = 0.0389
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | course | 126 | 11.3016 | 3.2478 | 11 | 11.2255 | 2.9652 | 5 | 19 | 14 | 0.2709 | -0.4072 | 0.2893 | 4 | 9 | 13 |
| G32 | home | 97 | 11.5258 | 3.0791 | 11 | 11.4051 | 2.9652 | 5 | 19 | 14 | 0.3387 | -0.4560 | 0.3126 | 4 | 10 | 14 |
| G33 | other | 35 | 11.4857 | 3.2843 | 11 | 11.4138 | 2.9652 | 5 | 19 | 14 | 0.1892 | -0.5487 | 0.5551 | 3 | 10 | 13 |
| G34 | reputation | 99 | 11.8182 | 3.3484 | 12 | 11.8148 | 2.9652 | 4 | 20 | 16 | 0.0193 | -0.4937 | 0.3365 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by reason
## Kruskal-Wallis chi-squared = 1.5656, df = 3, p-value = 0.6672
## category n mean sd median trimmed mad min max range
## G31 0 to 5 absences 211 12.0000 3.1275 12 11.9467 2.9652 5 20 15
## G32 6 to 10 absences 80 11.4000 3.2320 11 11.2969 2.9652 5 19 14
## G33 11 to 20 absences 51 10.1176 2.9976 10 10.0976 2.9652 5 17 12
## G34 >20 absences 15 10.2667 3.8446 9 10.1538 2.9652 4 18 14
## skew kurtosis se IQR Q0.25 Q0.75
## G31 0.1859 -0.5762 0.2153 5 10 15
## G32 0.3053 -0.3664 0.3613 5 9 14
## G33 0.0592 -0.6449 0.4198 4 8 12
## G34 0.6830 -0.2016 0.9927 3 8 11
##
## Kruskal-Wallis rank sum test
##
## data: G3 by absences
## Kruskal-Wallis chi-squared = 15.905, df = 3, p-value = 0.001186
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: absences_G3$G3 and absences_G3$absences
##
## 0 to 5 absences 6 to 10 absences 11 to 20 absences
## 6 to 10 absences 0.3654 - -
## 11 to 20 absences 0.0027 0.1786 -
## >20 absences 0.1786 0.3654 0.8172
##
## P value adjustment method: holm
## category n mean sd median trimmed mad min max range skew
## G31 Femenino 185 11.2054 3.1745 11 11.1678 2.9652 4 19 15 0.1902
## G32 Masculino 172 11.8663 3.2587 12 11.7681 2.9652 5 20 15 0.2133
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.4009 0.2334 4 9 13
## G32 -0.5180 0.2485 4 10 14
##
## Kruskal-Wallis rank sum test
##
## data: G3 by sex
## Kruskal-Wallis chi-squared = 3.1464, df = 1, p-value = 0.0761
## [1] -0.1403718
##
## Pearson's product-moment correlation
##
## data: data$age and data$G3
## t = -2.6713, df = 355, p-value = 0.007905
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.24066109 -0.03711684
## sample estimates:
## cor
## -0.1403718
## category n mean sd median trimmed mad min max range skew
## G31 Rural 78 10.7308 3.1936 10 10.6094 2.9652 5 19 14 0.3577
## G32 Urbano 279 11.7455 3.2080 11 11.6800 2.9652 4 20 16 0.1719
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.1575 0.3616 4.5 8.25 12.75
## G32 -0.4867 0.1921 4.0 10.00 14.00
##
## Kruskal-Wallis rank sum test
##
## data: G3 by address
## Kruskal-Wallis chi-squared = 5.7749, df = 1, p-value = 0.01626
## category n mean sd median trimmed mad min max range
## G31 Separados 39 11.7692 3.5278 11 11.6667 2.9652 6 19 13
## G32 Viviendo juntos 318 11.4937 3.1938 11 11.4414 2.9652 4 20 16
## skew kurtosis se IQR Q0.25 Q0.75
## G31 0.3720 -0.5665 0.5649 3.5 10 13.5
## G32 0.1735 -0.4494 0.1791 5.0 9 14.0
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Pstatus
## Kruskal-Wallis chi-squared = 0.13396, df = 1, p-value = 0.7144